检索范围:
排序: 展示方式:
《机械工程前沿(英文)》 2022年 第17卷 第2期 doi: 10.1007/s11465-022-0673-7
关键词: deep reinforcement learning hyper parameter optimization convolutional neural network fault diagnosis
Automated synthesis of steady-state continuous processes using reinforcement learning
《化学科学与工程前沿(英文)》 2022年 第16卷 第2期 页码 288-302 doi: 10.1007/s11705-021-2055-9
关键词: automated process synthesis flowsheet synthesis artificial intelligence machine learning reinforcement learning
Shaojun ZHU; Makoto OHSAKI; Kazuki HAYASHI; Shaohan ZONG; Xiaonong GUO
《结构与土木工程前沿(英文)》 2022年 第16卷 第11期 页码 1397-1414 doi: 10.1007/s11709-022-0860-y
关键词: progressive collapse alternate load path demolition planning reinforcement learning graph embedding
Toward Trustworthy Decision-Making for Autonomous Vehicles: A Robust Reinforcement Learning Approach
Xiangkun He,Wenhui Huang,Chen Lv,
《工程(英文)》 doi: 10.1016/j.eng.2023.10.005
关键词: Autonomous vehicle Decision-making Reinforcement learning Adversarial attack Safety guarantee
Jian Wu,Yang Yan,Yulong Liu,Yahui Liu,
《工程(英文)》 doi: 10.1016/j.eng.2023.07.018
关键词: Obstacle avoidance trajectory planning Inverse reinforcement theory Anthropomorphic Adaptive driving scenarios
Recent development on statistical methods for personalized medicine discovery
null
《医学前沿(英文)》 2013年 第7卷 第1期 页码 102-110 doi: 10.1007/s11684-013-0245-7
It is well documented that patients can show significant heterogeneous responses to treatments so the best treatment strategies may require adaptation over individuals and time. Recently, a number of new statistical methods have been developed to tackle the important problem of estimating personalized treatment rules using single-stage or multiple-stage clinical data. In this paper, we provide an overview of these methods and list a number of challenges.
关键词: dynamic treatment regimes personalized medicine reinforcement learning Q-learning
Actor-Critic强化学习算法及其在开发基于计算机视觉的界面跟踪中的应用 Article
Oguzhan Dogru, Kirubakaran Velswamy, 黄彪
《工程(英文)》 2021年 第7卷 第9期 页码 1248-1261 doi: 10.1016/j.eng.2021.04.027
本文通过将对象跟踪形式化为序列决策过程,使控制理论与计算机视觉实现同步。强化学习(RL)智能体成功跟踪了两种液体之间的界面,这通常是化学、石化、冶金和石油行业中跟踪的关键变量。该方法使用少于100 张图像来创建环境,智能体无需专家知识即可从中生成自己的数据。与依赖大量参数的监督学习(SL)方法不同,这种方法需要的参数少得多,这自然降低了维护成本。除了经济性外,该智能体还对环境不确定性(如遮挡、强度变化和过度噪声)具有鲁棒性。在闭环控制情境下,基于界面位置的偏差被选作训练阶段的优化目标。该方法展示了RL方法在油砂行业中的实时对象跟踪应用。本文除了介绍界面跟踪问题外,还详细回顾了最有效的RL方法之一——actor-critic策略。
基于专家示教聚类经验池的高效深度强化学习 Research Article
王士珉1,赵彬琦1,张政锋1,张军平1,浦剑2
《信息与电子工程前沿(英文)》 2023年 第24卷 第11期 页码 1541-1556 doi: 10.1631/FITEE.2300084
熊珞琳,唐漾,刘臣胜,毛帅,孟科,董朝阳,钱锋
《信息与电子工程前沿(英文)》 2023年 第24卷 第9期 页码 1261-1272 doi: 10.1631/FITEE.2200667
人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用 Article
吴京达, 黄志宇, 胡中旭, 吕辰
《工程(英文)》 2023年 第21卷 第2期 页码 75-91 doi: 10.1016/j.eng.2022.05.017
由于机器学习智能和能力有限,它目前仍无法处理各种情况,因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性,所以将人类引入人工智能(AI)的训练回路并利用人类智能进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人类指导(Hug)的深度强化学习
(DRL)方法,用于端到端自动驾驶案例中的策略训练。通过新设计的人类与自动化之间的控制转移机制,人类能够在模型训练过程中实时干预和纠正智能体的不合理行为。基于这种人在回路的指导机制,本研究开发一种基于修正策略和价值网络的改良的演员-评论家架构(actor-critic architecture)。所提出的Hug-DRL的快速收敛允许实时的人类指导行为融合到智能体的训练回路中,进一步提高了DRL的效率和性能。本研究通过40 名受试者的人在回路实验对开发的方法进行了验证,并与其他最先进的学习方法进行了比较。结果表明,该方法可以在人类指导下有效地提高DRL算法的训练效率和性能,且不特定要求参与者的专业知识或经验。
针对意外崩溃智能体的教练辅助多智能体强化学习框架 Research Article
赵鉴1,赵有朋1,王维埙2,阳明宇1,胡迅晗1,周文罡1,郝建业2,李厚强1
《信息与电子工程前沿(英文)》 2022年 第23卷 第7期 页码 1032-1042 doi: 10.1631/FITEE.2100594
关键词: 多智能体系统;强化学习;意外崩溃智能体
基于多智能体强化学习的车载自组织网络协作信道分配 Research Articles
王云鹏,郑坤贤,田大新,段续庭,周建山
《信息与电子工程前沿(英文)》 2020年 第21卷 第7期 页码 1047-1058 doi: 10.1631/FITEE.1900308
基于混合强化学习的自动驾驶汽车行人避撞方法 Research Article
李惠乾1,黄晋1,曹重1,杨殿阁1,钟志华2
《信息与电子工程前沿(英文)》 2023年 第24卷 第1期 页码 131-140 doi: 10.1631/FITEE.2200128
关键词: 行人;混合强化学习;自动驾驶汽车;决策
面向人—多机器人协同系统的带记忆强化学习行为控制任务管理器 Research Article
黄捷1,2,3,莫智斌1,2,3,张祯毅1,2,3,陈宇韬1,2,3
《信息与电子工程前沿(英文)》 2022年 第23卷 第8期 页码 1174-1188 doi: 10.1631/FITEE.2100280
MDLB:一种基于强化学习的元数据动态负载均衡机制 Research Articles
武兆琪1,卫今2,3,张帆1,郭威1,谢光伟2,3
《信息与电子工程前沿(英文)》 2020年 第21卷 第7期 页码 963-1118 doi: 10.1631/FITEE.1900121
标题 作者 时间 类型 操作
A new automatic convolutional neural network based on deep reinforcement learning for fault diagnosis
期刊论文
Deep reinforcement learning-based critical element identification and demolition planning of frame structures
Shaojun ZHU; Makoto OHSAKI; Kazuki HAYASHI; Shaohan ZONG; Xiaonong GUO
期刊论文
Toward Trustworthy Decision-Making for Autonomous Vehicles: A Robust Reinforcement Learning Approach
Xiangkun He,Wenhui Huang,Chen Lv,
期刊论文
Anthropomorphic Obstacle Avoidance Trajectory Planning for Adaptive Driving Scenarios Based on Inverse ReinforcementLearning Theory
Jian Wu,Yang Yan,Yulong Liu,Yahui Liu,
期刊论文